Skip to content

Latest commit

 

History

History
117 lines (85 loc) · 2.68 KB

Hadoop搭建总体步骤.md

File metadata and controls

117 lines (85 loc) · 2.68 KB

Hadoop搭建总体步骤

Linux集群环境

  • 三台机器
  • 配置
    • 机器名映射
    • 防火墙和selinux
    • 免秘钥登录
    • 时钟同步
    • JDK
    • MySQL
      • Java:存储业务数据、用户信息、商业信息、订单信息
      • 大数据:用于存储关键性数据
        • 软件元数据
        • 分析的结果

节点规划

设计每个进程启动在哪些机器上

  • 整个Hadoop启动的进程

    • HDFS:NameNode,DataNnode
    • YARN:ResourceManager,NodeManager
  • 整个Hadoop启动的进程

    • HDFS:NameNode ,DataNode
    • YARN:ResourceManager,NodeManager
  • 节点规划

    机器 node1 node2 node3
    NameNode *
    DataNode * * *
    ResourceManager *
    NodeManager * * *
  • 启动和关闭hdfs(未配置环境变量的情况下要去sbin目录下)

    start-dfs.sh
    stop-dfs.sh
  • 启动和关闭yarn

    start-yarn.sh
    stop-yarn.sh

Hadoop分布式上安装

  • 解压安装

  • 修改配置:配置文件都在Hadoop的etc/hadoop目录下

    • *-env.sh:用于配置环境变量
      • hadoop-env.sh
        • Hadoop的环境变量,比如声明JAVA_HOME
      • mapred-env.sh
        • MapReduce的环境变量
      • yarn-env.sh
        • YARN的环境变量
    • *-site.xml
      • core-site.xml
        • 配置Hadoop的全局的一些属性
        • 比如端口号、块大小等
      • hdfs-site.xml
        • HDFS的属性配置
        • dfs.replication:配置每个文件块的副本数
      • mapred-site.xml
        • MapReduce的一些属性
        • 比如Web端口
      • yarn-site.xml
    • slaves:用于配置从节点[DataNode、NodeManager]地址
      • 计算节点都与存储节点在同一台机器(DataNode也是NodeManager)
  • 启动服务

    • 第一次启动服务吗,需要格式化

      • 只能在NameNode所在的机器格式化

      hdfs namenode -format

      
      
    • core-site.xml和hdfs-site.xml配置编写错误,修正后需要重新格式化

    • 启动

      • 启动hdfs

        start-dfs.sh 只能在NN所在的机器启动
      • 启动yarn

        start-yarn.sh 只能在RM所在的机器启动
    • 端口:

      • HDFS:NameNode启动开放
        • 8020:RPC协议,用于客户端请求服务端,节点之间的远程调用
        • 50070:http协议,用于访问网页
      • YARN:ResourceManager启动开放
        • 8032:RPC协议,用于客户端请求服务端,节点之间的远程调用
        • 8088:http协议,用于访问网页